3.1 观察性实验 选择偏差 因果效应的非参数识别
如果我们要阐明因果关系, 且对照实验不可行, 我们可以考虑观察性实验.
1 潜在结果下的因果效应和选择偏差
对单元 , 我们有处理前协变量 , 指示是否处理的变量 , 观测结果 (). 假设 这样我们去掉下标 , 定义 , 以及两个组
根据 (1.1),
定义简单均值之差
这样, 通常不是 , 它们可以用来量化选择偏差.
在 2.7节 中, 我们在 CRE 中假定 , 则
从上面的讨论看出, 随机化最主要的好处是平衡潜在结果在两个组中的分布, 这比起观测协变量的平衡要远远更强. 如果没有随机化, 选择偏差可能会很大. 这便是观察性实验本质的难点所在.
2 因果效应非参数检验的充分条件
2.1 可识别性
观察性实验的因果推断很有挑战, 它依赖很强的假设. 我们可以用处理前协变量的信息, 假设
这个假设说明, 两个组潜在结果的差别, 完全源于观察到协变量的差别. 所以如果协变量的值给的是一样的, 潜在结果在两组的均值应该一样. 数学上看, 这说明了 (1.1) 的条件版本是一样的: 这里 特别地, 经常被叫成 条件平均因果效应 (CATE).
参数 是可识别的, 如果它可以被写成观测数据分布的函数.
是非参数可识别的, 如果它的函数表达不需要任何参数模型假设.
例如
- 是非参数可识别的, 如果我们的 是 IID 采样的.
- Pearson 相关系数 是非参数可识别的, 如果 采样是 IID 的.
可识别性在观察性实验中是至关重要的. 特别地, 本身无法判断是否可识别. 但是在假设 (2.1) 下, 它是非参数可识别的.
因为 只基于可观测结果, 它是可识别的. 而 (2.1) 保证了几个因果效应 的值一样, 所以这几个 都是可识别的. 所以基于全期望公式, 不加条件的版本也是可识别的:
接下来如果不加特别说明, 我们关注 .
在 (2.1) 下,
对于离散的协变量, 可以写成 以及
我们通常会给出一个更强的假设:
有时候还会有一个更强的假设:
2.2 可忽略性假设的合理性
可忽略性要求, 找到 之后, 剩下实验单元的分组就不会存在混杂变量了, 也即随机性造成的影响可忽略. 我们可以基于数据生成的流程来解释这个假设: 如果 这里 , 则 可忽略性、 强可忽略性 就都成立. 这里 "通常的诱因" 和结果都被观测到了, 剩下的随机的部分彼此独立. 而如果是 这里 , 则那两个假设一般不成立, 因为 是个没有被测量到的诱因
3 两个简单的估计策略和它们的缺陷
3.1 基于离散协变量的分层或标准化
如果协变量 是离散的, 则 可忽略性 表示为 这本质上假设观察性研究是一个在 超总体 下的 SRE. 因此我们用估计量 这和之前讲的 分层/后分层 一样.
这个方法依然广泛在实践中被采用.
3.2 结果回归
结果回归中最常用的方法是如下的回归: 如果这个线性模型正确, 则 这表明因果效应的值与协变量无关. 再结合可忽略性, 就有 因此如果可忽略性成立、结果模型是线性的, 则平均因果效应就是 的系数.
当然这两个条件也是比较强的. 这个结果其实即使在 CRE 中也不是最优的. 如果我们假设 则 再结合可忽略性 可以用 来估计 (这里用了回归的系数和样本均值). 如果我们让 , 则估计量就是 的系数.
一般地, 我们可以用更复杂的模型来估计因果效应, 比如基于实验和对照数据构造预测量 , 则 可以估计条件平均因果效应, 有时也称为 结果回归估计量; 以及 估计平均因果效应.
如果结果是二元的, 我们可以用 Logistic 模型 则基于系数 , 有
这个估计量不仅是 Logistic 模型中实验处理项的系数, 而是关于所有系数和协变量经验分布的非线性函数.